- 什么是 RNN
循环神经网络(Recurrent Neural Network, RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)
1.1 RNN 的应用
- 文本生成 (生成序列)
- 机器翻译
- 看图说话
- 文本 (情感) 分析
- 智能客服
- 聊天机器人
- 语音识别
- 搜索引擎
- 个性化推荐
1.2 为什么有了 CNN,还要 RNN?
- 传统神经网络 (包括 CNN),输入和输出都是互相独立的。图像上的猫和狗是分隔开的,但有些任务,后续的输出和之前的内容是相关的。例如:我是中国人,我的母语是____。这是一道填空题,需要依赖于之前的输入。
- 所以,RNN 引入 “记忆” 的概念,也就是输出需要依赖于之前的输入序列,并把关键输入记住。循环 2 字来源于其每个元素都执行相同的任务。
- 它并⾮刚性地记忆所有固定⻓度的序列,而是通过隐藏状态来存储之前时间步的信息。
1.3 RNN 的网络结构
首先先上图,然后再解释:
现在我们考虑输⼊数据存在时间相关性的情况。假设 是序列中时间步 t 的小批量输⼊, 是该时间步的隐藏变量。那么根据以上结构图当前的隐藏变量的公式如下:
>)
从以上公式我们可以看出,这⾥我们保存上⼀时间步的隐藏变量 ,并引⼊⼀个新的权重参数,该参数⽤来描述在当前时间步如何使⽤上⼀时间步的隐藏变量。具体来说,时间步 t 的隐藏变量的计算由当前时间步的输⼊和上⼀时间步的隐藏变量共同决定。 函数其实就是激活函数。
我们在这⾥添加了 ⼀项。由上式中相邻时间步的隐藏变量 之间的关系可知,这⾥的隐藏变量能够捕捉截⾄当前时间步的序列的历史信息,就像是神经⽹络当前时间步的状态或记忆⼀样。因此,该隐藏变量也称为隐藏状态。由于隐藏状态在当前时间步的定义使⽤了上⼀时间步的隐藏状态,上式的计算是循环的。使⽤循环计算的⽹络即循环神经⽹络(recurrent neural network)。
在时间步 t,输出层的输出和多层感知机中的计算类似:
1.4 双向 RNN
之前介绍的循环神经⽹络模型都是假设当前时间步是由前⾯的较早时间步的序列决定的,因此它 们都将信息通过隐藏状态从前往后传递。有时候,当前时间步也可能由后⾯时间步决定。例如, 当我们写下⼀个句⼦时,可能会根据句⼦后⾯的词来修改句⼦前⾯的⽤词。 双向循环神经⽹络通过增加从后往前传递信息的隐藏层来更灵活地处理这类信息。 下图演⽰了⼀个含单隐藏层的双向循环神经⽹络的架构。
在双向循环神经⽹络的架构中,设该时间步正向隐藏状态为 (正向隐藏单元个数为 h),反向隐藏状态为 (反向隐藏单元个数为 h)。我们可以分别 计算正向隐藏状态和反向隐藏状态:
%7D%2B%5Coverrightarrow%7BH%7D%7Bt-1%7DW%7Bhh%7D%5E%7B(f)%7D%2Bbh%5E%7B(f)%7D)>)![](<https://juejin.im/equation?tex=%5Coverleftarrow%7BH%7D_t%3D%5Cphi(X_tW%7Bxh%7D%5E%7B(b)%7D%2B%5Coverleftarrow%7BH%7D%7Bt-1%7DW%7Bhh%7D%5E%7B(b)%7D%2Bb_h%5E%7B(b)%7D)>)
然后我们连结两个⽅向的隐藏状态 来得到隐藏状态 ,并将其输⼊到输出层。输出层计算输出 (输出个数为 q):
双向循环神经⽹络在每个时间步的隐藏状态同时取决于该时间步之前和之后的⼦序列(包 括当前时间步的输⼊)。
1.5 BPTT 算法
在之前你已经见过对于前向传播(上图蓝色箭头所指方向)怎样在神经网络中从左到右地计算这些激活项,直到输出所有地预测结果。而对于反向传播,我想你已经猜到了,反向传播地计算方向(上图红色箭头所指方向)与前向传播基本上是相反的。
我们先定义一个元素损失函数:
%7D(y%5E%7B’(t)%7D%2Cy%5E%7B(t)%7D)%3D-y%5E%7B(t)%7Dlogy%5E%7B’(t)%7D-(1-y%5E%7B’(t)%7D)log(1-y%5E%7B’(t)%7D)>)
整个序列的损失函数:
%3D%5Csum_%7Bt%3D1%7D%5E%7BT_x%7DL%5E%7B(t)%7D(y%5E%7B’(t)%7D%2Cy%5E%7B(t)%7D)%24>)
在这个计算图中,通过%7D>)可以计算对应的损失函数,于是计算出第一个时间步的损失函数,然后计算出第二个时间步的损失函数,然后是第三个时间步,一直到最后一个时间步,最后为了计算出总体损失函数,我们要把它们都加起来,通过等式计算出最后的 𝐿,也就是把每个单独时间步的损失函数都加起来。然后你就可以通过导数相关的参数,用梯度下降法来更新参数。
在这个反向传播的过程中,最重要的信息传递或者说最重要的递归运算就是这个从右到左的运算,这也就是为什么这个算法有一个很别致的名字,叫做 “通过(穿越)时间反向传播(backpropagation through time)”。 取这个名字的原因是对于前向传播,你需要从左到右进行计算,在这个过程中,时刻 𝑡 不断增加。而对于反向传播,你需要从右到左进行计算,就像时间倒流。“通过时间反向传播”,就像穿越时光,这种说法听起来就像是你需要一台时光机来实现这个算法一样。
- 其它类型的 RNN
One to one: 这个可能没有那么重要,这就是一个小型的标准的神经网络,输入 𝑥 然后得到输出 𝑦。
One to many: 音乐生成,你的目标是使用一个神经网络输出一些音符。对应于一段音乐,输入 𝑥
可以是一个整数,表示你想要的音乐类型或者是你想要的音乐的第一个音符,并且如果你什么都不想输入,𝑥 可以是空的输入,可设为 0 向量。
Many to one: 句子分类问题,输入文档,输出文档的类型。
Many to many(): 命名实体识别。
Many to many(): 机器翻译。
- CNN 与 RNN 的区别
类别 | 特点描述 |
---|---|
相同点 | 1、传统神经网络的扩展。 |
2、前向计算产生结果,反向计算模型更新。
3、每层神经网络横向可以多个神经元共存, 纵向可以有多层神经网络连接。 |
| 不同点 | 1、CNN 空间扩展,神经元与特征卷积;RNN 时间扩展,神经元与多个时间输出计算
2、RNN 可以用于描述时间上连续状态的输出,有记忆功能,CNN 用于静态输出 |
- 为什么 RNN 训练的时候 Loss 波动很大
由于 RNN 特有的 memory 会影响后期其他的 RNN 的特点,梯度时大时小,learning rate 没法个性化的调整,导致 RNN 在 train 的过程中,Loss 会震荡起伏,为了解决 RNN 的这个问题,在训练的时候,可以设置临界值,当梯度大于某个临界值,直接截断,用这个临界值作为梯度的大小,防止大幅震荡。
- 实例代码
作者:@mantchs
GitHub:github.com/NLP-LOVE/ML…